Fine-Tuning Language Models from Human Preferences
https://arxiv.org/abs/1909.08593
OpenAI
感情分析のタスクで人間のフィードバックを利用
流れとしては
Learning from human preferences
から